Establishing open and general benchmarks has been a critical driving force behind the success of modern machine learning techniques. As machine learning is being applied to broader domains and tasks, there is a need to establish richer and more diverse benchmarks to better reflect the reality of the application scenarios. Graph learning is an emerging field of machine learning that urgently needs more and better benchmarks. To accommodate the need, we introduce Graph Learning Indexer (GLI), a benchmark curation platform for graph learning. In comparison to existing graph learning benchmark libraries, GLI highlights two novel design objectives. First, GLI is designed to incentivize \emph{dataset contributors}. In particular, we incorporate various measures to minimize the effort of contributing and maintaining a dataset, increase the usability of the contributed dataset, as well as encourage attributions to different contributors of the dataset. Second, GLI is designed to curate a knowledge base, instead of a plain collection, of benchmark datasets. We use multiple sources of meta information to augment the benchmark datasets with \emph{rich characteristics}, so that they can be easily selected and used in downstream research or development. The source code of GLI is available at \url{https://github.com/Graph-Learning-Benchmarks/gli}.
translated by 谷歌翻译
Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
跨学科的一个重要问题是发现产生预期结果的干预措施。当可能的干预空间很大时,需要进行详尽的搜索,需要实验设计策略。在这种情况下,编码变量之间的因果关系以及因此对系统的影响,对于有效地确定理想的干预措施至关重要。我们开发了一种迭代因果方法来识别最佳干预措施,这是通过分布后平均值和所需目标平均值之间的差异来衡量的。我们制定了一种主动学习策略,该策略使用从不同干预措施中获得的样本来更新有关基本因果模型的信念,并确定对最佳干预措施最有用的样本,因此应在下一批中获得。该方法采用了因果模型的贝叶斯更新,并使用精心设计的,有因果关系的收购功能优先考虑干预措施。此采集函数以封闭形式进行评估,从而有效优化。理论上以信息理论界限和可证明的一致性结果在理论上基于理论上的算法。我们说明了综合数据和现实世界生物学数据的方法,即来自worturb-cite-seq实验的基因表达数据,以识别诱导特定细胞态过渡的最佳扰动;与几个基线相比,观察到所提出的因果方法可实现更好的样品效率。在这两种情况下,我们都认为因果知情的采集函数尤其优于现有标准,从而允许使用实验明显更少的最佳干预设计。
translated by 谷歌翻译
为了获得下游图像信号过程(ISP)的高质量的原始图像,在本文中,我们提出了一个有效的本地乘法变压器,称为ELMFORMER,用于原始图像恢复。 Elmformer包含两个核心设计,尤其是针对原始属性是单渠道的原始图像。第一个设计是双向融合投影(BFP)模块,我们考虑了原始图像的颜色特征和单渠道的空间结构。第二个是我们提出了一个本地乘法自我注意力(L-MSA)方案,以有效地从当地空间传递信息到相关部分。 Elmformer可以有效地减少计算消耗,并在原始图像恢复任务上表现良好。通过这两种核心设计,Elmformer提高了最高的性能,并且与最先进的机构相比,原始DeNoising和原始Deblurring基准测试最低。广泛的实验证明了Elmformer的优势和概括能力。在SIDD基准测试中,我们的方法比基于ISP的方法具有更好的降解性能,这些方法需要大量的额外的SRGB培训图像。这些代码在https://github.com/leonmakise/elmformer上发布。
translated by 谷歌翻译
现有的最佳3D对象检测器通常依赖于多模式融合策略。但是,由于忽略了特定于模式的有用信息,因此从根本上限制了该设计,并最终阻碍了模型性能。为了解决这一局限性,在这项工作中,我们介绍了一种新型的模式相互作用策略,在该策略中,在整个过程中学习和维护单个单模式表示,以使其在物体检测过程中被利用其独特特征。为了实现这一建议的策略,我们设计了一个深层互动体系结构,其特征是多模式代表性交互编码器和多模式预测交互解码器。大规模Nuscenes数据集的实验表明,我们所提出的方法经常超过所有先前的艺术。至关重要的是,我们的方法在竞争激烈的Nuscenes对象检测排行榜上排名第一。
translated by 谷歌翻译
为了满足各种用户需求,近年来对图形布局的不同子任务进行了深入探讨。现有研究通常提出具有不同投入输出格式,专用模型体系结构和不同学习方法的任务特异性方法。但是,这些专业的方法使得适应了看不见的子任务,阻碍了不同子任务之间的知识共享,并且与设计通用模型的趋势背道而驰。在这项工作中,我们提出了Unilayout,该Unilayout以统一的方式处理图形布局生成的不同子任务。首先,我们统一地表示子任务的各种输入和输出作为令牌序列。然后,基于统一的序列格式,我们自然利用具有不同子任务的变压器的相同的编码器架构。此外,基于上述两种统一,我们进一步开发了一个同时支持所有子任务的单个模型。在两个公共数据集上的实验表明,尽管简单,单层虽然明显优于先前的特定于任务的方法。
translated by 谷歌翻译
痤疮检测对于解释性诊断和对皮肤疾病的精确治疗至关重要。任意边界和痤疮病变的尺寸较小,导致在两阶段检测中大量质量较差的建议。在本文中,我们提出了一个针对地区建议网络的新型头部结构,以两种方式提高建议的质量。首先,提出了一个空间意识的双头(SADH)结构,以从两个不同的空间角度从分类和本地化进行分类和本地化的表示。拟议的SADH确保了更陡峭的分类信心梯度,并抑制了与匹配的地面真理相交(IOU)低相交(IOU)的建议。然后,我们提出了一个归一化的Wasserstein距离预测分支,以改善提议分类评分与IOU之间的相关性。此外,为了促进痤疮检测的进一步研究,我们构建了一个名为Acnescu的新数据集,具有高分辨率成像,精确的注释和细粒度的病变类别。对AcnesCU和公共数据集Acne04进行了广泛的实验,结果表明该方法可以提高建议的质量,始终超过最先进的方法。代码和收集的数据集可在https://github.com/pingguokiller/acnedetection中找到。
translated by 谷歌翻译
肌电图信号可以通过机器学习模型用作训练数据,以对各种手势进行分类。我们试图制作一个模型,该模型可以将六个不同的手势分类为有限数量的样本,这些样本可以很好地概括为更广泛的受众,同时比较我们的功能提取结果对模型准确性的效果与其他更常规的方法(例如使用AR参数)在信号通道的滑动窗口上。我们诉诸于一组更基本的方法,例如在信号上使用随机界限,但是渴望在正在进行EMG分类的在线环境中展示这些力量,而不是更复杂的方法(例如使用傅立叶变换。为了增加我们有限的训练数据,我们使用了一种称为抖动的标准技术,在该技术中,以通道的方式将随机噪声添加到每个观察结果中。一旦使用上述方法生产了所有数据集,我们就进行了随机森林和XGBoost的网格搜索,以最终创建高精度模型。出于人类的计算机界面目的,高精度分类对于它们的功能特别重要,并且鉴于在大量的高量中积累任何形式的生物医学数据的困难和成本,具有低量工作的技术是有价值的具有较便宜的功能提取方法的高质量样品可以在在线应用中可靠地进行。
translated by 谷歌翻译
多标签学习(MLL)从每个与多个标签相关联的示例中学习,其中每个培训示例的所有相关标签的高成本对于现实世界应用程序都有挑战。为了应对挑战,我们研究了单个阳性多标签学习(SPMLL),其中每个示例仅带有一个相关标签,并表明人们可以成功地学习一个理论上接地的多标签分类器,以解决该问题。在本文中,提出了一种名为{\提出的}的新型SPMLL方法,即提出了具有标签增强的单阳性多标签学习。具体而言,得出了无偏的风险估计器,可以保证该估计器大致融合到完全监督学习的最佳风险最小化器中,并表明每个实例的一个正标能够足以训练预测模型。然后,通过将潜在软标签恢复为标签增强过程,建立相应的经验风险估计器,其中潜在软标签的后验密度近似于通过推动模型对变异beta beta密度参数。基准数据集上的实验验证了所提出方法的有效性。
translated by 谷歌翻译